查看原文
其他

李宇明:语言资源与语言资源学 | “语言资源学理论与学科建设”大家谈

语标 2023-07-17

The following article is from 语言资源高精尖创新中心 Author 李宇明

本文来源:《语言教学与研究》2022年 第2期


编者按

《语言教学与研究》1981年第3期发表了邱质朴教授的《试论语言资源的开发——兼论汉语面向世界问题》,这是我国首篇讨论语言资源的专题论文,至今仍常被学界援引。此后40年多里,编辑部一直关注语言资源的研究及其社会实践,包括国家语言资源监测与研究中心、中国语言资源有声数据库建设、中国语言资源保护工程、语言资源高精尖创新中心等的发展。2021年,北京语言大学设立“语言资源学”博士专业,这是我国语言资源研究的学科化,是交叉学科建设在语言学领域的一次重要实践。本期刊发“语言资源学理论与学科建设”大家谈,对语言资源研究中的若干理论与实践论题做些探讨,并希望引发学界对语言资源学学科建设的关注与讨论。这是本刊持续关注和推进语言学研究及相关应用研究的新观念、新理论、新方法、新领域、新学科系列专栏的一个组成部分。



语言资源与语言资源学

作者:李宇明北京语言大学语言资源高精尖创新中心


资源学萌生于20世纪初,人类开始以资源的理性眼光来看待世界,并形成资源学庞大的学科体系。早期的资源学关注自然资源,如气候资源、水土资源、生物资源、海洋资源、矿产资源、能源资源等,后来才逐渐关注社会资源,如旅游资源、文化资源、人力资源、信息资源等。

语言资源属于社会资源。1973年,费什曼(Joshua Aaron Fishman)最早提出语言资源的概念。1981年,中国学者邱质朴在《试论语言资源的开发——兼论汉语面向世界问题》(《语言教学与研究》1981年第3期)一文中,从信息化、语言教学、语言规划等多个角度讨论语言资源问题。1984年,鲁伊斯(Richard  Ruiz)认为语言资源的概念可以减缓社会冲突,提升弱势语言的地位。1987年澳大利亚出台《国家语言政策》(A National Language Policy),提出要保护、开发澳大利亚的语言资源,这是将语言资源理念变为国家语言政策的不多案例。不过令人遗憾的是,进入20世纪90年代,澳大利亚语言政策衍变为英语读写能力优先,相对削弱了语言资源在语言政策中的比重。


一、中国语言资源的研究与实践

邱质朴1981年的论文并未得到学界的及时反应。澳大利亚制定的《国家语言政策》,《语文建设》1988年第5期就做了介绍,但也似乎没有引发学界较大关注。2003年,在“973计划”特别专项“中文语料库建设”支持下,七家单位共建“中文语言资源联盟”(Chinese Linguistic Data Consortium),表明了“语言资源”在信息领域的需求。2004年,“国家语言资源监测与研究中心”正式挂牌,逐渐建立七个专门中心,这些中心的监测数据通过教育部新闻发布会和国家语委组编的《中国语言生活状况报告》连年向社会发布,其中的中国语言资源开发应用中心还编发《语言资源研究》内部刊物。“语言资源”这一概念逐步有了社会知名度。2007年9月,教育部语言文字信息管理司与北京语言大学(简称“北语”)共同主办“国家语言资源与应用语言学”高峰论坛,会后出版论文集《中国语言资源论丛》(商务印书馆,2009),进一步扩大了“语言资源”的学术影响。2007年“中国语言资源有声数据库建设”的研制与实施,2015年“中国语言资源保护工程”的开展,2016年北京语言大学语言资源高精尖创新中心的成立,2019年上海外国语大学语料库研究院的成立,2020年“东北亚语言资源数字化平台”在内蒙古大学的成立,特别是2018年中国与联合国教科文组织在长沙共同召开首届“世界语言资源保护大会”并形成《岳麓宣言》,使“语言资源”成为国家语言规划的理念,而且为国际社会提供了语言规划领域的公共产品。

《岳麓宣言》


中国是语言资源研究用力最勤、成果最多的国度。1981年到2003年可以看作语言资源的学术酝酿期,之后语言资源发展为重要的学术研究领域,出现了四次学术高峰:2004年、2008年、2010-2012年、2015-2016年。早期研究主要是确定语言的资源属性,因为语言资源这个概念尚未进入资源学,需要论证。待到“语言资源”有了一定的名声之后,开始研究语言资源的内涵与外延。近来的焦点集中在语言功能及如何充分发挥语言功能上,以及根据功能来考虑语言资源的分类、建设规格和评价标准。


二、语言资源的三大功能

语言资源有诸多功能域,目前最为重要的功能域在语言保护、语言学习和语言信息处理。

语言保护已是广为认同的语言资源功能,通过对语言或方言的语料搜集整理来保存语言,通过改善语言的生态条件来保护语言。语言中包含着语言成分、语言知识、语言习惯和传统文化,故而保存、保护语言就是保护人类现有或旧有的文化世界。

语言学习功能是较早被提及的语言资源功能,不管是母语学习、国家通用语言学习、华语学习,还是外语学习、国际中文教育,都需要甚至是依赖语言资源。2019年10月,国家语委指导成立的全球中文学习平台,利用人工智能和互联网等技术手段,针对不同年龄、地域的学习者,提供个性化的中文学习资源和工具。2020年3月运营的“中文联盟”云服务平台,聚集全球渠道、课程、技术、产品、服务等资源,为从事国际中文教育的学校、机构、教师和学生提供线上教学及辅助服务,确保国际中文教育“停课不停学、不停教、不停考”。疫情期间的线上语言教育,凸显了语言资源的教育功能。

语言信息处理功能是与信息技术发展相关的语言资源功能。计算机处理语言的能力,包括语言智能的发展,都离不开语言资源的支撑,或通过语言资源获取语言处理能力,或通过特定的语言资源来测试、评价机器的语言处理能力。20世纪50年代人类就开始进行机器翻译尝试,中文信息处理经过字处理、词处理阶段的艰难行进,已顺利步入话语处理阶段,努力让计算机具有语言智能。信息检索、自动翻译、机器写作、人机对话等快速进展,得益于语言大数据的集聚与应用。离开语言资源的滋养,机器是无法具有和不断提升处理语言的能力的。如果说语言保护是保护人类已有的世界,那么语言信息处理是在帮助人类创造未来的新世界。


三、语言数据

而今人类进入数字经济时代,数据成为重要的生产要素。2019年10月,中共十九届四中全会提出:“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。”这是重大的理论创新,体现着对信息化社会的本质认识,是在数字经济快速发展背景下经济制度的与时俱进。

数据是信息的表现形式和载体,人类社会多数数据和重要数据都是“语言数据”。语言(包括文字)是人类信息最为重要的载体,大约80%的信息由语言负载。未用语言负载的信息,也常需要语言来帮助阐释,比如图画、雕塑、音乐、服装、建筑等艺术。因此在当今时代应当认识到,语言数据也属于“生产要素”范畴。

语言数据可分为两类四种:A)语言的符号系统,包括语音系统、语汇系统、语法系统、文字系统、标点符号、注音符号等;B)语言负载的信息,包括口语、书面语、语言参与者的音频、视频文件等所记录、负载的各种信息;C)由语言延伸的符号与代码,如盲文、手语、旗语、灯语、电报代码等;D)生活、艺术与科学技术符号,如电话号码、身份证编码、银行卡号码、乐谱、数学符号、化学符号、公式、计算机编程语言等。A、B是自然语言数据,C、D是人工语言数据。人工语言有时单独使用,有时与自然语言一同使用;它们或是自然语言的符号化,或是需要自然语言辅助理解,或是可以用自然语言进行阐释。

从数据的角度看待语言和语言资源,是把语言与信息科学关联起来,把语言与数字经济关联起来。语言资源建设的科学目标,是满足计算机发展语言智能、从事各种机器语言行为的需要,满足计算机“社会计算”(social computing)的数据需要。语言资源建设的经济学目标,是充分发挥语言资源生产要素的作用,支持数字经济发展。这就需要全面加强对语言资源的管理或治理,建立语言数据集聚、管理、标准、产权、共享、取酬等若干方面的准则,发展语言数据产业与职业,促进语言数据的生产与市场流通,促进语言数据的数字化、智能化和洁净化。


四、语言资源学

人类提出“语言资源”的概念已近50年,且有澳大利亚、中国和联合国教科文组织等语言规划实践,有数以万计甚至百万计的语料库、知识库建设实践,有中国学者近20年来的深入研究,语言资源学的建立具有一定的实践基础和学术基础。语言资源中包含有重要的科学问题和社会问题,科学问题如语言与话语、语言与文化、语言的经济学属性、语言智能、机器语言行为等,社会问题如人类语言文化保护、语言学习的促进、数字经济的发展、信息无障碍社会的构建等。这些问题有许多在数字时代更加凸显,探讨和解决这些问题变得更为迫切,这是语言资源学建立的科学需要和社会需要。

2009年,王世凯《语言资源与语言研究》(学林出版社)出版,就提出建立语言资源学问题。北语2021年决定建立语言资源学博士专业,标志着语言资源学的正式诞生。北语是一所语言大学,为了语言教学、语言研究、计算机语言处理等,一直重视语言资源的建设与研究。邱质朴1981年那篇中国首论语言资源的文章,就发表于北语主办的《语言教学与研究》。2004年前后,北语的张普教授就倾心研究语言资源问题,这也是“国家语言资源监测与研究中心”的首个分中心——平面媒体分中心能建在北语的重要原因。2007年在北语召开的“国家语言资源与应用语言学”高峰论坛,是语言资源研究的首个高峰学术会议,会议论文集也是这一领域的首部论文集。“中国语言资源有声数据库建设”的研制与实施、“中国语言资源保护工程”的开展,《岳麓宣言》的起草等,曹志耘等北语的学术团队都是主力。2016年北语成立了语言资源高精尖创新中心,为语言资源学的学科建设进行了学术准备、人才集聚和资源筹备。语言资源学在北语诞生是符合现实需求和学术逻辑的。

语言资源高精尖创新中心官网:
http://yuyanziyuan.blcu.edu.cn/index.htm


语言资源学是研究语言资源及其相关问题的科学,是跨语言学、资源学、经济学、信息科学等的交叉学科。学术上,它需要进一步界定学科研究对象,明晰本学科的科学问题,寻求合适的研究方法和研究手段,梳理相关文献和学科研究范例,逐步形成学科理论,逐步建构学科体系和人才培养体系;实践上,要与社会保持密切联系,积极了解语言资源的需求者、建设者和管理者,凝练出语言资源学最需解决的社会问题,通过解决社会问题来推进语言资源学发展,通过语言资源学的发展来推进社会进步。

语言资源学是科学家族的新生儿。新生儿总是脆弱的、稚嫩的,但也是最具发展潜力和无限可能的。

本文转自公众号:语言资源高精尖创新中心

往期推荐

标点符号,你都用对了吗?

趣味语文丨地名中的“谐音梗”

元宇宙中的用户与信息:今生与未来

就是说‘就是说’有了新功能?

本期责编:饺子君

语标

你的语言风向标

-扫码关注我们-

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存